随着越来越多的人工智能代理投入实际应用,是时候考虑如何让这些代理完全自主,以便它们能够以自我激励和自我监督的方式自行学习,而不是在人类工程师的发起下使用扩展的训练数据定期进行重新训练。由于现实世界是一个充满未知或新奇事物的开放环境,因此检测新奇事物或未知事物、对其进行表征、适应或适应它们、收集真实训练数据以及逐步学习未知/新奇事物对于使代理随着时间的推移变得越来越有知识和强大至关重要。关键挑战是如何使该过程自动化,以便代理能够主动地通过其与人类和环境的交互来执行该过程。由于人工智能代理通常具有执行任务,因此描述每个新事物变得至关重要且必要,以便代理可以制定适当的响应来调整其行为以适应新事物并从中学习以提高代理的适应能力和任务绩效。这个过程不断进行而不会终止。本文提出了这种学习范式的理论框架,以促进构建自发开放世界学习 (SOL) 代理的研究。还描述了一个示例 SOL 代理。
主要关键词
![arXiv:2110.11385v3 [cs.AI] 2024 年 2 月 29 日PDF文件第1页](/bimg/b/bd7e7474c47c6e52f2f5f6b05e7dd8028d477ce8.webp)
![arXiv:2110.11385v3 [cs.AI] 2024 年 2 月 29 日PDF文件第2页](/bimg/c/ca26dabf42a61859a365cccd56a7cb3e4c44e9d7.webp)
![arXiv:2110.11385v3 [cs.AI] 2024 年 2 月 29 日PDF文件第3页](/bimg/8/81cc3723789e4dd673253907397190015c344682.webp)
![arXiv:2110.11385v3 [cs.AI] 2024 年 2 月 29 日PDF文件第4页](/bimg/f/fa0cfe0d766e4777e14102579499703d931978b6.webp)
![arXiv:2110.11385v3 [cs.AI] 2024 年 2 月 29 日PDF文件第5页](/bimg/5/50cf661aac6064fa1e256e5b44f2c742c32a826e.webp)
